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Работа посвящена развитию научных основ, методов и технолог! ИЙ первичного автоматизированного контро- 
ля регистрируемых данных при проведении Г еофизических исследований в скважинах. Решение вопроса о 
прекращении каротажа на определённой скважине зачастую связано с субъект, ъ‘ивными оценками экспертов. 
Авторы аргументируют необходимость использования автоматизированных средств обнаружения ошибок и 
контроля качества регистрируемых данных в процессе или непосредственно по завершению исследований. 
Приводится краткий анализ симптомов ненадёжности фрап ментов записи. Предлаг. ается алгоритм, ИСпольЬ- 
зующий методы итерационного моделирования неполных данных с ПОМОЩЬЮ мног. ообразий малой размерно- 
сти, для решения задачи оценки качества записи данных Г еофизических исследований скважин. Приводятся 
примеры, демонстрирующие высокую эффек тивность методов итерационного моделирования неполных дан- 
НЫХ С ПОМОЩЬЮ МНОГ. ообразий малой размерности в задаче заполнения пробелов данных Г еофизических ис- 
следований, а также результаты численного эксперимента по решению задачи контроля качества данных 
электрического каротажа. 
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Введение. Одной из важнейших задач нефтепромысловой геофизики является повышение точ- 
ности и достоверности количественной интерпретации промыслово-геофизических данных. Реше- 
ние этой задачи невозможно без достоверных данных геофизических исследований скважин (да- 
лее — ГИС) [1]. 

Первичная обработка и оценка качества полевых данных, оценка материалов производит- 
ся оператором по исследованию скважин визуально, непосредственно на объекте. Такая оценка 
требует от оператора значительных познаний в теории геофизических методов исследования 
скважин, навыков интерпретации ГИС, а также большого опыта работы. Однако большинство 
операторов, по тем или иным причинам, либо не обладают требуемой квалификацией, либо про- 
сто не имеют возможности оценить качество полученных данных вследствие большого объёма 
проводимых исследований, сложных условий исследования [2], сложных и незнакомых геофизи- 
ческих разрезов скважин и т. д. При выявлении «брака» материала на этапе интерпретации гео- 
физических исследований, требуется повторное проведение исследований, что связано с весьма 
значительными финансовыми расходами. 

В статье «А НегагсМса! АрргоасН о тргомта Вафа ОчаЖу» [3] присутствует во многом 
схожая проблематика задачи контроля качества данных. Предлагаемый авторами подход к реше- 
нию задачи автоматизированного контроля качества геоинформационных данных основан на со- 
поставлении изображений одной местности, полученных из разных источников. Критерием каче- 
ства считаются величины взаимных уклонений пар матриц смежности графов, представляющих 
наборы данных. Подбор и сопоставление изображений выполняется экспертами вручную, являясь 
при этом актом формализации их опыта, поскольку основная проблема инженерии знаний — это 
процесс извлечения знаний. 





* 
Работа выполнена по тематическому плану Министерства образования и науки РФ № 2.3.13 «Метод сбалансированной 
дискретизации для задач имитационного моделирования динамических процессов в распределённых объектах». 
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Постановка задачи. Существует проблема «ранней» оценки качества зарегистрированного ма- 
териала ГИС, то есть оценки качества в процессе записи и непосредственно после окончания за- 
писи. Таким образом, использование автоматических средств обнаружения ошибок и контроля 
качества регистрируемых данных становится весьма актуальным. 

Работа посвящена развитию научных основ, методов и технологий первичного автомати- 
зированного контроля регистрируемых данных при проведении геофизических исследованиях в 
скважинах. Симптомами ненадёжности фрагментов записи выступают: 

1) значения показаний приборов, не имеющие смысла с геолого-геофизической точки 
зрения, которые могут быть связаны со срывами, выбросами, затяжками, утечками в кабеле, 
ошибками аналого-цифрового преобразования [4, 5] ит. д.; 

2) противоречивые показания приборов, проявляющиеся в расхождениях показаний, по- 
лученных различными методами исследования, либо при разных условиях работы одного метода. 
Например, показания электрических методов на постоянном и переменном токе, либо несоответ- 
ствие показаний разных зондов при исследовании на постоянном токе; 

3) несоответствие показаний приборов априорной информации, имеющейся об объекте 
исследований. Например, отсутствие артефактов на записи электромагнитных методов при про- 
хождении интервалов перфорации колонны. 

Целью автоматизированного контроля качества является выявление вышеуказанных про- 
блемных ситуаций, которые определяют информационную нерегулярность данных и привлечение 
к ним внимания оператора. Достижение цели обеспечивается обнаружением с некоторой, заранее 
заданной вероятностью, симптомов проблемных ситуаций в процессе записи данных ГИС, а также 
непосредственно по завершению исследования. 

Скважинные геофизические исследования с математической точки зрения описываются, 


как функции 9 ЕР где 9 — измеряемый геофизический параметр, № — глубина. Симптомы 
нарушения информационной регулярности записей каротажных данных 9 =Ё (п) могут быть оп- 


ределены с помощью методов итерационного моделирования неполных данных с использованием 
многообразий малой размерности [6] для автоматизированного контроля качества данных геофи- 
зических исследований. 
Алгоритм оценки качества материалов с применением метода моделирования непол- 
ных данных. Рассмотрим алгоритм решения задачи оценки качества записи данных ГИС с при- 
менением метода восстановления на примере данных метода кажущихся сопротивлений (КС). 
Скважинные исследования методом КС основаны на расчленении пород, окружающих скважину, 
по их удельному электрическому сопротивлению (УЭС). При исследованиях методом КС может 
регистрироваться либо сила тока (токовый каротаж), либо разность потенциалов. В результате 
каротажа получают токовые диаграммы, характеризующие изменение силы тока по стволу сква- 
жины. Исходя из предположения, что большая часть данных не искажена, алгоритм может иметь 
следующий вид: 

1. Из исходного набора данных выбирается окно — окрестность исследуемой точки; 

2. Часть данных строки содержащей исследуемую точку удаляется; 

3. Проводится восстановление удалённого участка; 

4. Восстановленная кривая сравнивается с исходной по критерию минимума среднеквад- 
ратических отклонений. 

Шаги повторяются для каждой точки исходного набора данных (рис. 1). 

Пусть имеется двумерный прямоугольный числовой массив С, строки которого представ- 
ляют собой функции 9 =Ё (п) КС пород скважины, заданные в дискретной форме с одинаковым 


интервалом и нормированные на диапазон [0...1] независимо друг от друга. Таким образом, каж- 
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дый столбец этой матрицы есть вектор данных а — «изображение» исследуемой среды различ- 
ными зондами [7-9]. Достоверность каждой точки матрицы С подвергнута сомнению и может 
быть оценена за счёт скрытых зависимостей между точками её окрестности. 

Представим С как одномерный массив векторов а и выберем интервал — окрестность век- 
тора, содержащего исследуемую точку. Таким образом получаем «окно» — матрицу А размера 
тх п, где т (количество строк) — размерность вектора а, п (количество столбцов) — длина ин- 
тервала, содержащего окрестность точки. Слева и справа от исследуемой точки, в содержащей её 
строке, удалим участки данных одинаковой длины, получив, таким образом, версию матрицы Ас 
«пробелами». Применив к матрице с «пробелами» один из методов итерационного моделирова- 
ния неполных данных восстановим удалённый участок. Контролируемая точка должна находиться 
строго в центре отбрасываемого участка. Контролируемый участок должен находиться в центре 
окна, если это возможно. Допускается перестановка местами строк матрицы. 

Необходимо также отметить, что хотя количество строк матрицы А и может быть произ- 
вольным, для удовлетворительной работы методов восстановления данных требуется не менее 
трёх строк. Длина интервала подбирается экспериментально для каждого метода ГИС. Эффектив- 
ный размер интервала для КС составляет от 30 до 50 точек. Длина восстанавливаемого участка 
должна находиться в пределах 20-50 % от ширины матрицы. 
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Рис. 1. Иллюстрация алгоритма оценки достоверности данных: 1 — движение скользящего окна; 
2 — удалённый участок данных; 3 — скользящее окно 


Итерационное моделирование неполных данных с помощью многообразий малой 
размерности. Рассмотрим три версии метода итерационного моделирования неполных данных с 
помощью многообразий малой размерности: 
1. линейный — с моделированием данных последовательностью линейных многообразий ма- 
лой размерности; 
2. квазилинейный — с построением «главных кривых» (или «главных поверхностей»), одно- 
значно проектируемых на линейные главные компоненты; 
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3. существенно нелинейный — основанный на построении «главных кривых» с использова- 
нием вариационного принципа; итерационная реализация этого метода близка методу са- 
моорганизующихся карт Кохонена. 

Все версии метода могут трактоваться как построение нейросетевого конвейера, решаю- 
щего следующие задачи: 

1. заполнение пробелов в данных; 

2. ремонт данных, корректировка значений исходных данных так, чтобы наилучшим образом 
работали построенные модели; 

3. построение вычислителя, заполняющего пробелы в поступающей на вход строке данных 
(в предположении, что данные о новых объектах связаны теми же самыми отношениями, 
что и в исходной таблице). 

Столбец матрицы А есть вектор а с К пробелами, который представляется как А-мерное 
линейное многообразие /„ параллельное К координатным осям, которые соответствуют удалён- 
ным данным. При наличии априорных ограничений на пропущенные значения место /. занимает 
параллелепипед Р. < [.. 

Построим моделирующее эти данные линейное многообразие малой размерности следую- 
щим образом: за основу возьмём прямую Кх)=ху+ЬВ, которая задаётся направляющим вектором у 
и проходит через точку, определяемую вектором БВ. Расположим эту прямую так, чтобы она наи- 
лучшим (в некотором точном смысле) образом приближала исходные данные. Если взять в каче- 
стве проектора данных на эту прямую ортогональный проектор, то исходный вектор данных а ор- 
тогонально проецируется в вектор х=Рг(а) на полученной прямой (рис. 2). 


9.(п) 





Кх) = ху +Ь 


9. (п) 


9.(п) 


Рис. 2. Моделирующие многообразие малой размерности 


Для исходных данных можно посчитать их уклонения от линейной модели, которые нахо- 
дятся из разницы между исходными данными и их проекциями на полученную прямую. Для полу- 
ченных уклонений также можно построить приближающую наилучшим (в определённом точном 
смысле) прямую, для которой тоже можно рассчитать уклонения. В результате, получается ите- 
рационный процесс моделирования данных, который заключается в том, что для исходных дан- 
ных строится наилучшая (в определённом точном смысле) модель — линейное многообразие М 
малой размерности. Далее из данных А вычитаются проекции х=Рг„(а). Получаем уклонения от 
первой модели. Для этого множества уклонений снова строится простая модель и т. д., пока все 
уклонения не станут достаточно близки к нулю. 
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Пусть задана прямоугольная матрица А=(а;), клетки которой заполнены действительными 
числами или значком @, означающим отсутствие данных. Требуется представить исходную мат- 
рицу А в виде суммы одноранговых матриц Р.: А = ов ‚ где каждая Р, имеет вид ху, + В. Сле- 


довательно, ставится задача поиска наилучшего приближения А матрицей вида ху; + Ь; методом 
наименьших квадратов: 


ет 
ФЕ ХУ (а,-ху,-Ь,) > тп. (1) 
а, 
На первой итерации допускается принять значения вектора у случайным, но нормирован- 
ным на 1, значения вектора 6 вычисляются по формуле: 
1 
ан где Е (2) 


ы. ау =@ ау =@ 


Решая задачу (1), для данной матрицы А находим наилучшее приближение матрицей Р, 
вида ху; + В. Далее, из матрицы А вычитаем полученную матрицу Ри, и для полученной матрицы 
уклонений А-Р; вновь ищем наилучшее приближение р» этого же вида и т. д. Контроль ведётся по 
остаточной дисперсии столбцов. В результате исходная матрица данных А представляется в виде 
суммы матриц Ру, т. е. А=Р.+Р+...+Р.. Следует обратить особое внимание на то, что центрирова- 
ние (переход к нулевым средним) к данным с пробелами неприменимо. 

С использованием О полученных факторов можно решать задачи заполнения пропусков в 
таблице и ремонта искажённых значений: 

О-факторное заполнение пропусков: пропущенные значения в исходной матрице А опре- 
деляются из суммы О полученных матриц вида ху; + Б; 

О-факторный «ремонт» таблицы: значения в исходной матрице заменяются на сумму О 
полученных матриц вида ху; + В, 

При отсутствии пробелов полученные прямые будут ортогональны и мы получим ортого- 
нальную систему факторов. Для неполных данных это не так, но возможен процесс ортогонали- 
зации полученной системы факторов, который, к примеру, заключается в том, что исходная таб- 
лица восстанавливается при помощи полученной системы факторов, после чего эта система пере- 
считывается заново, но уже на дополненных данных. 

Для лучшего приближения исходных данных, можно подобрать такую гладкую вектор- 
функцию, значения переменных которой определяются через проекции данных на уже построен- 
ное многообразие, что суммарное значение квадратов уклонений будет минимальным среди всех 
возможных функций данного класса. Такой тип линий называется квазилинейным 

Пусть, как и в случае линейных моделей, задана таблица с пропусками А = (а,), т. е. неко- 
торые а; = @. Построение квазилинейных моделей, наилучшим образом приближающих данные, 
предлагается проводить в несколько шагов: 

1. Построение линейной модели: решение задачи (1). Для определённости полагаем, что 

(ИВ) =0, ИУ =1. 

2. Интерполяция (сглаживание): строится вектор-функция Кё, минимизирующая функ- 

ционал: 


2 +00 
Ф=Х (а, -Е(аку,)) + а | (Г”(УРАЕ, (3) 
а): =” 
где о > 0 — параметр сглаживания. 


Для решения этой задачи могут быть применены полиномы небольшой степени, кубиче- 
ские сплайны или функция Карлемана [10]. 
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3. Экстраполяция: самая простая экстраполяция полученной вектор-функции #(Ё) может 


быть получена при использовании касательных к полученной функции на концах интервала или 
формул Карлемана. 
Таким образом, сглаженная вектор-функция /(Ё) экстраполируется с некоторого конечно- 


го множества { Е, } на всю вещественную прямую с использованием формул Карлемана: 


2(е”' _е^“) т (е^ И е^* )(е* +е”“) 


| ы. 
^(е\ и е^® У(Е УП (е^ КУ е^* )(е* +е^*) ( ) 
ы 7=К 





Еву чье (Е) -ВУ-Ь) 








где ^ — параметр, характеризующий ширину полосы на плоскости комплексных чисел, где экст- 
раполируемая функция гарантированно голоморфна. 

Процедура использования квазилинейных моделей несколько отличается от аналогичной 
процедуры в линейном случае. Точка на построенной кривой Кё), соответствующая полному век- 
тору данных а строится как К(а,у)). В этом и заключается квазилинейность метода: сначала ищет- 
ся проекция вектора данных на прямую Рг(а)=&у+б, Е=(а,у), а затем строится точка на кривой 
Е(Е). Также и для неполных векторов данных — сначала на прямой ищется ближайшая точка Ка), 


а затем — соответствующая точка на кривой /(#), при #=Ка). После построения кривой #Ё(Ё) из 


данных вычитаются их проекции, т. е. матрица данных заменяется на матрицу уклонений. Далее 
снова ищется наилучшее линейное приближение для матрицы уклонений, вновь строится сглажи- 
вание, экстраполяция и т. д., пока уклонения не приблизятся в достаточной степени к нулю. Кри- 
терием остановки могут выступать остаточные дисперсии. 

В результате исходная таблица предстаёт в виде О-факторной модели: 


а, = УГ (#9), (5) 


где аргументом функции служит нормированное скалярное произведение исходного данного на 
линейную основу квазилинейного многообразия. 

Самоорганизующиеся карты Кохонена (5е!-Огдаптитд тар — 5ОМ) [11] — это модифици- 
рованный алгоритм линейного векторного квантования данных, т. е. представления № точек дан- 
ных с помощью меньшего числа точек-ядер. Каждое из ядер заменяет собой локальное сгущение 
данных — таксон. В результате такой замены данные представляются с ошибкой аппроксима- 
ции — среднеквадратичного расстояния от точки до ближайшего к ней образца. 

Пусть 5ОМ определяется набором точек (ядер) У={у,} (1 ] = 1..т), последовательно рас- 


положенных на квадратной сетке. Требуется отобразить на ней набор точек данных Х ={[х}. 


Введём преобразование /7, которое каждому вектору х е Х сопоставляет ближайшую к нему точку 
из у 


ев, у,-х| > тм, (6) 





р! 
а каждому ядру у; сопоставляется его таксон 
к, =|х Х/х—" >у,}. (7) 


Минимизируемый функционал, таким образом, будет состоять из следующих слагаемых: 





























в=У У [к-у,[; (8) 
Д хеКу 
В У (9) 
р 5 
2, = У[РУ, Ул Унь | + РУь — Ули Унлы| (10) 
7 д 
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Для построения 5ОМ требуется минимизировать функционал: 


р р р 
А (11) 





где Л, и — параметры связности и нелинейности, «модули упругости». 

Пусть метрика является евклидовой. В этом случае функционал 2 является квадратичным 
по положениям узлов у;. Это значит, что при заданном разбиении множества точек данных на 
таксоны для его минимизации потребуется решить систему линейных уравнений размерами 
рахрад. Следовательно, эффективным методом минимизации функционала 2 окажется такой ал- 
горитм: 

1. Узлы сетки так или иначе располагаются в пространстве данных. 

2. При заданных положениях узлов сетки производится разбиение множества точек дан- 
ных на таксоны — подмножества К). 

3. При заданном разбиении множества точек данных на таксоны производится минимиза- 
ция функционала 2. 

Шаги 2 и 3 повторяются до тех пор, пока функционал Дне перестанет изменяться (в пре- 
делах заданной точности). Процесс сходится, поскольку на каждом этапе минимизации величина 
р, будет уменьшаться, вместе с тем она ограничена снизу нулём. Более того, процесс сходится за 
конечное число шагов, поскольку число вариантов разбиения точек данных на таксоны конечно. 

Выпишем явно коэффициенты матрицы системы линейных уравнений, которую необходи- 
мо решать на каждой итерации алгоритма минимизации. Непосредственное дифференцирование 
даёт следующие результаты: 





100 -2),К-2„/ 1) /к-1, К 1), ,К+1,/ 2) „К+2,/ 
> 9уя =аС у“? +а(Зу“м +а„у“ чабу“М + аб у"? + 

(12) 
+6 ук + БСВук/м + Боуи + Буки В >. х. 


ХЕКи 


р те та $ > 
Из уравнения бут =0, К=1...р, Е1...д получим т систем линейных уравнений. 


«Вытянем» набор ядер ух в один столбец. В результате вектор неизвестных примет вид: 
Х = (Уи Уна Узи Узда т У (рп = У‘р-па! У рии Ура). (13) 
Система уравнений имеет вид Ах=Р, где 5-я компонента вектора свободных членов равна: 


Ух 








хск, : —1 ь —1 
Вина, +82, (14) 
Хх 9 9 

где [...] — операция взятия целой части числа. 
а! =К, 1 Еф, 
(-1; си —_ м ие 
_ 17=/, ‚= м 
а реку =, 49 
ас?) Г =К-2,]=/, . 5-1 
В ; ЕН, 
ан’! =К+2,1=/, 

ии где 

[2 ЕК] =1-2, Е Е-1 1 
БИ =К, =1-1, а 
БОГ =К, Л =1+, 1 
БС?) ы . [=Ё- ‘=. д. 
РЕК, = Ра, а 
0, ебе, 


Матрица, таким образом, имеет девятидиагональный вид. 
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На протяжении всей работы алгоритма значения элементов матрицы остаются неизмен- 
ными, изменяются лишь компоненты вектора 6. 

Численные эксперименты показывают высокую эффективность методов итерационного 
моделирования неполных данных с помощью многообразий малой размерности в задаче заполне- 
ния пробелов данных геофизических исследований (рис. 3). Для данных, качество которых не 
подвергается сомнению, протяжённость удалённого контролируемого участка, успешно восста- 
навливаемого методом самоорганизующихся карт, составляет до 50 % ширины окна и до 20 % 
при восстановлении линейным методом. 












































э, Ом*м 
0.5 ПИ Исходная 
0.4 кривая 
0.3 
02 Г] Удаленный 
0.1 участок 
0 
21 41 61 Ь, м ® Восстановленная 
з, Ом*м кривая 
0.5 
0.4 
0.3 
0.2 
0.1 
0 
21 41 61 Ь, м 
>, Ом*м 
0.5 
0.4 
0.3 
0.2 
0.1 
0 
21 41 61 Ь, м 


Рис. 3. Графическое представление содержимого ГА5-файла с удалённым контролируемым участком 
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Рис. 4. Оценка сомнения для участка, искажённого гармоникой 


Точки — данные, восстановленные методом $О0М. 
Далее из исходных данных отброшенного участка вычитаем данные полученные методом 
восстановления, получая, таким образом, дискретно заданную случайную величину — кривую 
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уклонений е. Величина среднеквадратического отклонения е и есть оценка достоверности для 
тестируемой точки, расположенной в центре отброшенного участка. Все операции повторяются 
для каждой точки, формируя кривую оценки достоверности. 

Приведём результаты расчётов для рассматриваемой задачи контроля качества записи 
данных каротажа КС с использованием методов итерационного моделирования неполных данных 
самоорганизующимися многообразиями. 

С целью проверки эффективности предложенного алгоритма на участке от 50 до 70 мет- 
ров на испытуемой кривой были искусственно внесены помехи, представляющие собой гармони- 
ческие колебания постоянной частоты и постоянной малой амплитуды. Участок с помехами явно 
выделялся аномально высоким уровнем среднеквадратического отклонения (рис. 4, 5). 

















>. Ом*м 
0.5 ПИ Исходная 
0.4 кривая 
0,3 
0.2 Г] Удаленный 
01 участок 
0 
= 55 75 Ь. м ® — Восстановленная 
5, Ом*м кривая 
2 
1.5 ШЕИ Оценка 
сомнения 
1 
0,5 
о й 
35 55 75 Ь, м 
2, Ом*м 











35 55 75 Ь, м 
Рис. 5. Оценка сомнения для участка, искажённого выбросом 


Заключение. Сформулирована задача автоматизированного контроля качества ГИС с использо- 
ванием методов восстановления данных. Построена вычислительная схема, алгоритмы и про- 
грамма вычислительной машины для решения задачи контроля качества ГИС. Доказана возмож- 
ность применения методов восстановления данных в задачах оценки качества. Методика основа- 
на на использовании методов теории подобия и восстановления данных с пропусками. Автомати- 
зация первичного контроля каротажных материалов позволит избежать дополнительных выездов 
на скважины с целью повторного проведения ГИС. 
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ОМ АЧТОМАТЕО ОЦЧАМТУ СОМТВОЕ ОГ СЕОРНУ$ТСАЕ МЕЦ. ГОбСТМС ОАТА* 
В. \. Ретедом, А. С. Киде!т 
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